语音处理基础：预加重、分帧、帧移、加窗、傅里叶变换

您所在的位置：网站首页 › 傅里叶变换去噪求出信噪比 › 语音处理基础：预加重、分帧、帧移、加窗、傅里叶变换

语音处理基础：预加重、分帧、帧移、加窗、傅里叶变换

2024-07-12 18:08| 来源: 网络整理| 查看: 265

一、预加重

预加重是语音信号处理的前提，主要目的是提升语音信号中的高频分量。人的发生系统是从肺开始，肺作为能量源，气流通过声带，引发周期性震动（元音），能量经过咽、口腔、唇、舌，形成最后的声音。元音能量主要集中在1KHz以下，并且以6dB/十倍频的速度下降。辅音一般不引起声带振动，频率更高。其中口唇辐射对低频影响比较小，但是对高频段影响比较大，预加重就是为了消除这种影响，提升高频分量。在语音信号中，提升高频分量的目的主要是因为高频分量（即辅音）包含了更多的信息，而元音的频率普遍较低。功率谱随频率的增加而减小，其大部分能量集中在低频范围内。这就造成消息信号高频端的信噪比可能降到不能容忍的程度。总之，预加重保持信号的低频部分不变，提升信号的高频部分；而去加重衰减信号的低频部分，保持高频部分。预加重/去加重的目的都是提升信号中高频部分的能量，以补偿信道对高频部分衰减过大。预加重一般采用的是一阶高通滤波器：

$H\left( z \right)=1-\mu {{z}^{-1}}$

其中， $\mu {{z}^{-1}}$ 的取值一般接近于1。

二、分帧

语音数据和视频数据不同，本没有帧的概念，但是为了传输与存储，我们采集的音频数据都是一段一段的。为了程序能够进行批量处理，会根据指定的长度（时间段或者采样数）进行分段，结构化为我们编程的数据结构，这就是分帧。语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性（10---30ms内可以认为语音信号近似不变），这个就可以把语音信号分为一些短段来进行处理，每一个短段称为一帧（CHUNK）。

详见：语音信号处理基础（五）——语音分帧与加窗_张亚楠·的博客-CSDN博客_语音分帧与加窗实验报告

三、帧移

由于我们常用的信号处理方法都要求信号是连续的，也就说必须是信号开始到结束，中间不能有断开。然而我们进行采样或者分帧后数据都断开了，所以要在帧与帧之间保留重叠部分数据，以满足连续的要求，这部分重叠数据就是帧移。

四、加窗

介绍帧移的时候我们说了，我们处理信号的方法都要求信号是连续条件，但是分帧处理的时候中间断开了，为了满足条件我们就将分好的帧数据乘一段同长度的数据，这段数据就是窗函数整个周期内的数据，从最小变化到最大，然后最小。

加窗即与一个窗函数相乘,加窗之后是为了进行傅里叶展开. 1.使全局更加连续，避免出现吉布斯效应 2.加窗时候，原本没有周期性的语音信号呈现出周期函数的部分特征。加窗的代价是一帧信号的两端部分被削弱了，所以在分帧的时候，帧与帧之间需要有重叠。

详见：语音信号处理基础（五）——语音分帧与加窗_张亚楠·的博客-CSDN博客_语音分帧与加窗实验报告

五、傅里叶变换对一帧信号做傅里叶变换得到的结果叫做频谱

对语音信号处理主要的数学工具是傅里叶变换，而傅里叶变换是研究整个时间域和频率域的关系。不过，当运用计算机实现工程测试信号处理时，不可能对无限长的信号进行测量和运算，而是取其有限的时间片段进行分析。

【本文地址】

语音处理基础：预加重、分帧、帧移、加窗、傅里叶变换

语音处理基础：预加重、分帧、帧移、加窗、傅里叶变换

今日新闻

推荐新闻